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ОЕТЕБКМІХАТІОХ ОЕ ТНЕ АТТКІВОСТЕЗ5 ОК АСОТНОВЗНІР ОК 
МАТОВА, ТЕХТ5 


Досліджено можливості встановлення авторства природномовних текстів та їх фрагментів методом 
класифікації за найменшою відстанню у просторі образів. Образи у п-мірному Евклідовому просторі 
формуються за ознаками вимірювань методами статистичного та рекурентного аналізу, показниками 
складності тексту. Метод рекурентного аналізу часових рядів адаптовано до аналізу природномовних 
текстів. Встановлено, що визначені ознаки мають недостатньо високу ефективність при визначенні 
авторства; у 85Уо випадків хоча б один з методів дозволяє встановити авторство; модифікований метод 
рекурентного аналізу має той же рівень ефективності, як статистичний та аналіз складності тексту. 
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авторство тексту, класифікація 


Тре роз5ібійу ої дейпіпе Ше ашфог5рір ої пагига! Іапоцаєе (ехі5 апа ії5 їгаєтепів має ехріогед Бу 
тіпітиго 4і5капсе сіаззійсайоп іп з5расе ітаєє5. І п-Фітепзіопа! Бисіїдеап 5расе Ше ітаєе Їогті5 Бу 
теазигетепі 58ісп5 ої 5кайяйс апа гесштепі апаЇу8і8, согаріехісу іпаїсагог3. Тре теїоа ої гесштепі апаЇузія ої 
йте 5егіе5 ууаз адаріед о Ше апаЇузі5 ої пагига| Іапецаєе (ехі5. Сегіаїп 5ієп5 ууегеп'ї ейбїсіепі епоцеп іп 
ашрогяпір декегтіпацойп; іп 8590 ої са85е8 ак Іса5і опе ої бе пеїродз аПомуз їо езіабіїяю аціпог5Пір; Фе поадїйед 
тероад ої гесштепі апаЇузія па5 Ше 5ате Іеме! ої еїйсіепсу а58 5їайяисаї апа сотріехігу апаЇузбіз. 

Кеуууогадз: паїига! Іапецаєе Техі8, геситепсе апаіубі8, 5гайяйс апаїузіз, їехі соппріехігу, (ехі ашірогяПпір, 


сіаззібсацйоп 


Вступ 

Науковий інтерес до автоматичної 
обробки текстів виник приблизно шіст- 
десят років тому. Особливе місце в цій 
сфері займають проблеми виявлення ав- 
торства, плагіату та оцінки якості тексту. 
На даний час залишається багато невизна- 
ченого у цій проблематиці. 

Запропонований підхід враховує вза- 
ємозв'язок між цими проблемами. Так, за- 
масковані запозичення можуть бути опосе- 
редковано виявлені за ознаками авторства 
та складності текстів. 

Постановка проблеми 

Виявлення плагіату є однією зі скла- 
дових у сфері академічної доброчесності. 
Закон «Про освіту» вимагає перевіряти 
дисертації, дипломні роботи та наукові 
публікації на наявність запозичень. 

З іншого боку, проблема встановлен- 
ня авторства текстів виникає у юридичній 
площині. Питання авторства має велике 
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значення для усіх сфер, де існує поняття 
права власності на об'єкт, де роль авторст- 
ва є дуже істотною. Це стосується худож- 
ніх творів, наукових та навчальних мате- 
ріалів та багатьох інших робіт. 

Складність питання полягає у тому, 
що для перевірки текстів на плагіат або ви- 
явлення запозичення потрібно мати відпо- 
відну базу матеріалів для порівняння. Зада- 
ча ускладнюється багатомовністю джерел. 
Частково цю задачу можна вирішити без 
застосування матеріалів для порівняння. 

Аналіз останніх досліджень |і 
публікацій 

Частотний аналіз текстів. 
Проблему статистичної та частотної струк- 
тури текстів, складання частотних словни- 
ків мови конкретного автора або окремо 
взятих текстів на матеріалах різних мов 
(німецької, англійської, російської і т.д.) 
досліджували мовознавці | 1-41. 

Такий аналіз грунтується на побудові 
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частотного словника автора за обраним 
текстом шляхом обчислення частоти вход- 
ження кожного зі слововживань (2, 6). До- 
свід складання подібних словників наочно 
демонструє, що словесне наповнення будь- 
якого, досить довгого тексту, має власну 
статистичну структуру. Внаслідок чого, 
можна стверджувати, що у кожного автора 
є співвідношення часто і рідко вживаних 
лексем. Саме це співвідношення читач і 
сприймає як багатий чи бідний словник 
автора (7, 81. 

У подальшому, після проведення час- 
тотного аналізу, виділяються визначальні 
ознаки для кожного з текстів. Однією з та- 
ких характеристик є авторський інваріант 
І9). Це - числовий параметр, який дає 
можливість розрізняти твір за авторським 
стилем. Дуже часто, як показали попередні 
дослідження для прози, на цей показник іс- 
тотно впливає частота вживання службо- 
вих слів (прийменники, сполучники або 
частки). 

Частотним характеристикам текстів 
присвячено багато робіт, де були розгляну- 
ті подібності між авторами ХІХ-ХХ сто- 
літь (10). Також були проаналізовані по- 
дібні словники для різних слов'янських 
мов, таких як чеська, польська, сербська, 
болгарська та російська (11). 

Аналіз на основі Х-грам. Одним з 
широко використовуваних методів аналізу 
тексту є метод М-грам (12). Він є часто 
вживаним у виявленні плагіату |13|. Цей 
метод став застосовуватися порівняно 
недавно. 

М-грамом в алфавіті називають до- 
вільний ланцюжок довжиною ХМ, Як ланки 
такого ланцюжка можна використовувати 
як символи, так 1 окремі слова. Метод по- 
лягає у підрахунку і порівнянні профілів 
частоти М-грамів для різних текстів. 

У багатьох задачах необхідно визна- 
чити, так званий, стиль тексту. Під стилем 
тексту розуміється сформована система 
мовних засобів, використовуваних у різних 
сферах людського спілкування. У лінгвіс- 
тиці його прийнято називати функціональ- 
ним стилем мови | 14). Стиль тексту багато 
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в чому визначається частотою і порядком 
вживання у ньому різних частин мови | 141, 
що задовольняє умовами застосування ме- 
тоду М-грам. 

Аналіз на основі М-грам дає можли- 
вість виявити характерні сполучення слів та 
їх складність для конкретного твору або ав- 
тора. На основі цих даних можна визначити 
характерний стиль мовлення автора. Дане 
твердження справедливе як для звичайних, 
так і для спеціалізованих текстів | 15). 

Показники складності сприйняття 
тексту. Лексику прийнято вважати найкра- 
щим показником легкості сприйняття текс- 
ту. Середня довжина слів (у буквах або 
символах) і речень є статистичними факто- 
рами, які часто використовують для оцінки 
складності тексту. Ці параметри легко під- 
даються кількісному вираженню і придатні 
для автоматичної оцінки. 

Проблему визначення складності 
тексту для розуміння читачем допомага- 
ють вирішити цілий ряд показників. На- 
приклад, індекси туманності Ганнінга, 
Колемана-Лиау та оцінка читабельності 
Рейгора (16). Вони будуються на основі 
підрахунку кількості речень, слів, складів, 
букв у тексті, також середньої кількості 
слів, складів, букв у реченнях та складів 1 
букв у словах. 

Усі перелічені вище показники розра- 
ховувались для текстів англійської мови 
вузького призначення та для певної ауди- 
торії читачів (16). Тому вони не зовсім від- 
повідають меті дослідження, однак почат- 
кові кількісні показники мають певну 
інформативність. 

Ступінь складності текстів може да- 
вати відповідну характеристику автору. 

Рекурентний аналіз. Рекурентний 
аналіз використовується для дослідження 
часових рядів. Він був модифікований для 
аналізу текстів. 

За основу був узятий аналіз рекурент- 
них діаграм (гесштепсе дпапіїйсабоп апаЇу- 
518, КОД), у якому для аналізу використову- 
ють щільність рекурентних точок (171. 

Модифікований метод полягає у 
наступному: 
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- | розраховується частота букв у тексті; 

- отримується часовий ряд, замінюючи 
кожний символ обраного тексту на йо- 
го частоту. Умовний час - перехід від 
одного символу до іншого; 

- | визначається фазовий простір |131, як 
візуалізація переходів від стану до ста- 
ну (від символа до символа); 

- | розраховується рекурентна діаграма на 
основі фазового простору через відо- 
браження повторюваних станів у різні 
моменти часу; 

- | обчислюються та інтерпретуються за- 
гальновживані показники рекурентно- 
го аналізу щодо аналізу тексту. 

Показник рекурентності (геситепсе 
гаїе, КК) визначає щільність рекурентних 
точок на досліджуваній діаграмі. Це зна- 
чення приблизно відображає загальну кіль- 
кість повторень кожного зі статистично 
близьких символів 


1 она 
вк у 2В; » (1) 


і,іч1 
де М - кількість розглянутих станів, К,, - 


і)-та точка рекурентної діаграми, є - 
радіус околиці точки в момент часу і, т - 
розмірність фазового простору. 

Показник детермінізму (деїегтіпіят, 
РЕТ) розглядає частотний розподіл дов- 
жин І діагональних ліній у діаграмі Р"(/), 
де М - абсолютна кількість таких ліній. 
Значення ДЕТ визначає частоту повторень 
усіх сполучень статистично близьких сим- 
волів будь-якої довжини: 


У ПРІ) 
РЕТ - 02) 


тує 
2 
,/ 


Середня довжина діагональних ліній 
І, визначає середню довжину повторюва- 
них статистично близьких символів. 


У ПІР-(І) 
Іа би (3) 
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Показник дивергенції  (імегоепсе, 
РІУ) є величиною, зворотною максималь- 
ній довжині діагональних структур. 


1 
ДІМ чн. (4) 
пах((151 - 1...М, )) 
Ентропія (епйору, ЕМТК) є показни- 
ком частотного розподілу діагональних лі- 
ній, для текстів - частотного розподілу 


повторюваних поєднань статистично 
близьких символів. 
М 
ЕМТЕ « - У р(Т)їш(р), (5) 
ТЕЙіп 
де 
Р'(І 
РІ ) ре ої 5 
У, Р'(І) 


Їзі 


Показник завмирання  (Іатіпагіїу, 
ТАМ) демонструє частотний розподіл дов- 
жин у-горизонтальних ліній у діаграмі 
Р'"(у), де М - абсолютна кількість таких 


ліній. Показник ДАМ приблизно визначає 
повторення статистично близьких 
СИМВОЛІВ. 


У УР" (у) 
ТАМ зак (7) 


- М 
т,є 
2 Кк, 
ї,) 


Показник затримки (ітарріпе те, ТТ) 
відображає середню довжину горизонталь- 
них структур. Показник ТТ визначає серед- 
ню довжину поєднань статистично близь- 


КИХ СИМВОЛІВ. 
М 


У, уР'"(у) 
ТТ їжу (8) 
ХУ, Р"(у) 
Показники  (1).(8) відображають 


структуру рекурентної діаграми. 

Мета дослідження 

Задача даної роботи полягає у визна- 
ченні ефективності методів статистичного 
та рекурентного аналізу, показників склад- 
ності тексту щодо встановлення авторства 
текстів. 
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Експериментальні дослідження 
ефективності ознак авторства 

Підготовка експерименту. Для про- 
ведення експерименту була обрана худож- 
ня література через її яскраво виражену ін- 
дивідуальність та достовірність інформації 
про авторство. 

Для коректного проведення експери- 
менту була сформована навчальна вибірка 
з 20 творів 11 авторів та контрольна вибір- 
ка з 33 текстових файлів: по три тексти 
кожного автора з навчальної вибірки. 

Визначення параметрів рекурент- 
ного аналізу. Спочатку наведемо реаліза- 
цію модифікованого методу рекурентного 
аналізу |18| на прикладі «Заповіту» 
Т. Шевченка (рис. 1-4). 

Обчислення частоти входження кож- 
ного символу українського алфавіту наве- 
дені на рис. | у вигляді СТОВПЧИКОВОЇ 
діаграми. 


ода ТТ 

0л2! | 

зЗрннНЕНННАННАВНІ 
| 

008! 

006 


ГІ , 4 -- 
' 
0,04 Я | кін. -С 
ооо, і '! І й й 
о ЦІЙ І аа | ї ЦОНАВМІ 


БГЕ ЖИІ КМОРТ ХШЬЯ 
Літери 


Частота 


Рис. 1. Діаграма з частотою символів 


На рис. 2 представлено часовий ряд, 
сформований на основі обраного тексту з 
відповідними (як на рис. 1) частотами. 


ДК РОРЕАНЕЕЬ ЕЕ 


І2о -рии о ни ий і "ННІ: 
зо ОЛННІ-ЯННН і ГИ ВРЕЕЕ ЩІ | 
5 ; 
СТІ ЗОРЕ ЕЕЕЕЕЕЬ 
о 
і п РР ОРЕЛ 
ЕР М 
зоПрЕТНИО 
0.023 
а о РУ 120 160 200 мо 280 320 
Номер символа у тексті 
Рис. 2. Часовий ряд тексту «Заповіт» 
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За отриманими частотами відповідно 
до всього тексту «Заповіту» за канонами 
рекурентного аналізу (18| визначено фазо- 
вий простір (рис. 3) розмірністю - 2. 

0,15 г 
0,13 
0,05 сю 
о, 
40,05 
-0,13 
-0,15- 


Частота 


002 004 006 0,08 0,14 0,12 
Частота 


Рис. 3. Фазовий простір тексту 


Побудована рекурентна діаграма має 
відображати особливості авторського текс- 
ту. Діаграма згідно з «Заповітом» наведена 
на рис. 4. Значення радіусу околиці точок у 
фазовому просторі є - 0,5. 


Символи тексту 


0 40 80, 7120 160 200 240 280 320 


Символи тексту 
Рис. 4. Рекурентна діаграма тексту 


Для спрощення аналізу діаграми об- 
раховуються показники  рекурентності 
(1)..(3). Для «Заповіту» отримані наступні 
значення показників (табл. 1). 


Таблиця 1. Показники рекурентного 
аналізу «Заповіту» 


Назва показників Значення 

Міра рекурентності КК 0,021 
Міра детермінізму РЕТ 0,002 
Дивергенція РІЙ 0,125 
Середня довжина діагоналей І, 2,38 
Міра ентропії ЕМТК 0,769 
Міра завмирання ТАМ 0,00018 
Міра затримки ТТ 2 
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Виконання експерименту. Виконані 
експериментальні дослідження тексту за 
частотою літер, довжиною слів та реку- 
рентним аналізом. 

Авторство тексту визначається за 
найменшою відстанню до еталону |191, за 
який приймається середнє значення за тво- 
рами автора з навчальної вибірки. 

Вважаємо, що образ Х ї Належить ДО 


класуф,, якщо найближчий до Х й образ 
навчальної вибірки належить є (Х, - 
вектори у Евклідовому просторі, де і - по- 


казник, за яким визначається авторство, / -- 
номер твору в навчальній або контрольній 


вибірці, Х,, - К-ий елемент вектору Х,,). 
Класифікування виконується окремо 
за частотою літер (Х, ;» довжиною слів 
(Х,;), показниками рекурентного аналізу 
(Х 3;), та усіма показниками разом (Х,, ). 
Елементи векторів х,; -- К-иЙ показник ре- 
курентного аналізу (табл. 1); х, , - Частота 


КАї літери у тексті; х,, - Кількість слів 
довжиною К-літер. 
Згідно з текстом «Заповіту» отримані 


значення векторів Х,,, Х,,, Ха;, Х,,- 

Хр -|002 0 0.13 238 077 0 2, 
Х, «0.06 0.02 0.06 0.02 ... 0.02; 
хоа4 15 2 46 11 ТВО 4 У 
Х, "10.02 0 0.13 2.38 0770 2 0.06 
0.02... 0.02 14 11.2 18 11 11 7 4 4 1). 

Для коректності порівняння вектори 
були унормовані наступним чином: 

а Хі -тіп(х,,) 
ік тах (ху) піт с) . 

У результаті обробки контрольної 
вибірки | були отримані результати, 
наведені у табл. 2, де сірим виділені ті 
результати, що виявили автора твору, або 
були близькі до нього. 

Авторство творів у таблиці подано 
наступним чином: 1 - О. Довженко, 2 - 
І. Багряний, 3 - І. Франко, 4 - М. Коцюбин- 
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ський, 9 - Л. Українка, 6-- М. Хвильовий, 7 - О. 
Вишня, 3 - П. Мирний, 9 - В. Підмогильний, 
10--С. Жадан, 11 - Т. Шевченко. 


Таблиця 2. Визначення авторства текстів 
з використанням аналізу за одним символом 


Автор! ЧЛ ЛС РА Загальне 
2 2 9126/5816 23315 Й 
2  |8,1,4/10 |11,10,5/75| 1,2,7/31 (10,11,7/27 
2 16,9,4/16 | 9,8,6/36 | 1,6,9/24 | 9.8,6/29 
7  16,8,2/14 | 6,9,3/21 | 8,4,3/9 | 6,8,9/17 
7  |2,6,4/13 | 2,1,7/20 | 6,7,9/2 1 2,1,7/16 
7 | 8,7,4/4 7 4,3,9/23 7 
1 18,3,9/14 111,7,10/42| 8,4,11/39 17,4,11/13 
1 1 6,9,8/50 | 6,2,1/15 | 6,9,8/32 
1 |3,7,8/17 | 8,3,6/17 1 3,8,9/16 
10 12,6,10/9 | 9,6,8/54 | 1,2,9/33 | 9,6,2/49 
10 10 10 10 10 
10 |1,39,219 10 10 1,10,4/3 
4 4 6,9,8/20 | 8,6,4/36 | 6,9,8/19 
4 114,25 | 6,9,3/30 | 6,9,1/30 | 6,8,9/20 
4 19,1,4/1 | 8,9,6/22 | 7,3,6/50 | 9,8,4/4 
5 |6,1,4/17 | 1,4,8/70 | 8,4,11Л9 | 4,8,1/40 
5 14,7,5/7 | 4,3,7/74 | 6,7,2/60 | 4,3,7/48 
5 б; 11,4,10/65| 10,7,1/47 111,5,10Л 
8  14,8,3/15 |10,11,7/61 8 10,11,7/27 
8 8 8 1019152 8 
8 8 8 2,1,9/29 8 
9 16,9,3/1 15,10,11/21 10,1,2/32 10,5,11/55 
9 114,9/8 | 1,2,7/40 | 10,1,9/18 | 1,2,4/30 
9 9 1,2,4/39 | 4,9,1/22 | 1,2,4/26 
3  12.4,9/10 | 2,1,6/33 | 1,7,9/15 | 2,1,9/43 
3  15,4,1/5 111,5,10/80| 10,1,2/57 5,10,11/40 
3  11,9,4/24 | 8,9,6/25 | 2,1,9/22 | 9,6,5/10 
6  |4,6,1/4 | 4,3,1/48 6 4,1,3/23 
б 6 7,1,4/56 6 7,1,4/31 
6 6 9,6,8/3 | 7,1,2/14 | 9,6,2/7 
ПО 10,7,1/18| 9,6,8/51 | 6,3,9/78 | 6,9,8/42 
1 11 8,3,4/73 | 2,7,9/10 | 8,3,4/42 
1 11 11 11 11 


Інші стовпчики у табл. 2: ЧЛ (частота 
літер - за вектором Х.,, ); ЛС (кількість лі- 


тер у слові - за Х., ); РА (рекурентний ана- 


ліз - за Х,,); загальне - результати порів- 


няння за об'єднаним вектором Х,;. 


У комірках таблиці - інформація що- 
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до визначення найближчих трьох авторів 
для обраного твору. Якщо перший резуль- 
тат є точним, то наступні не наводяться. 
Четверте значення визначає близькість 
першого отриманого результату до реаль- 
ного авторства наступним чином: 
хі І, -1 
тах(і,, 1) 

де | - відстань між векторами твору та 
найближчим еталоном, Ї, - відстань між 


векторами твору та еталоном творів реаль- 
ного автора. 

Також було виконано визначення ав- 
тора тексту з використанням М-грамів. Цей 
метод заснований на розбитті усього тексту 
на пари сусідніх символів та визначенні їх 
частоти, з якою вони зустрічаються у творі. 
При цьому до пари входять символи З на- 
хлестом, тобто спочатку обираються пер- 
ший та другий символи, потім другий та 
третій 1 т.д. Якщо у слові залишається лише 
один символ, то в пару до нього йде перший 
символ наступного слова. 

Були проведені експерименти для 2- 
... 7-грамів із заміною поетичних творів на 
прозові. 

Авторство творів у таблицях 3, 4 
пронумеровано наступним чином: І -- 
І. Багряний, 2 - О. Вишня, 3 - М. Вовчок, 4 -- 
О. Довженко, 5 -- М. Коцюбинський, 6 - 
Г. Квітка-Основ'яненко, 7 - П. Мирний, 8 - 
В. Нестайко, 9 - В. Підмогильний, 10 - 
І. Франко, 11 - М. Хвильовий. 

Найкращий результат був отриманий 
при застосуванні 4-грамів (табл. 3). 

Аналіз даних у табл. 3 щодо встанов- 
лення авторства за допомогою 4-грамів ви- 
явив суттєве покращення аналізу з вико- 
ристанням частоти символів, але зменшен- 
ня ефективності використання рекурентно- 
го аналізу. 

Також було виконане порівняння за 
частотою слів з урахуванням їх закінчень. 

Другий стовпчик табл. 4 - ЧС (ре- 
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зультати порівняння за вектором Х,;, з 
даними частоти слів у тексті). 

Для виявлення авторства розрахована 
частота усіх слів у тексті з подальшим 
формуванням часового ряду, фазового 
простору та рекурентної діаграми за отри- 
маними даними (табл. 4). 


Таблиця 3. Визначення авторства текстів 
за 4-грамами 


Автор | ЧЛ | ЛС | РА | Загальне 
1 1 8 2 1 
1 1 7 5 1 
1 1 9 9 1 
2 2 4 6 2 
2 2 8 9 й 
2 2 2 5 2 
3 3 3 2 й 
3 3 7 6 3 
3 3 і 3 3 
4 4 10 5 4 
4 4 7 8 4 
4 4 6 8 4 
5 5 5 3 5 
5 5 5 11 5 
5 З 7 3 5 
б 6 6 7 6 
б 6 6 3 6 
б 6 6 9 6 
7 4 9 2 4 
7 і 9 3 7 
7 / й 7 7 
8 8 9 11 8 
8 8 -; 4 8 
8 8 8 11 8 
9 2 2 5 2 
9 9 1 5 9 
9 9 1 5 59 
10 1 1 2 1 
10 5 10 5 5 
10 10 5 9 10 
1 11 7 2 11 
1 й 4 2 11 
1 9 1 3 9 


Дані табл. 4 дозволяють стверджува- 
ти, що встановлення авторства твору з ви- 
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користанням частоти слів дещо гірше за 
ефективність аналізу по 4-грамам. 


Таблиця 4. Визначення авторства текстів 
за словами 


Автор ЧЛ ЛС РА Загальне 
1 1 8 1 1 
1 2 7 9 2 
1 1 9 10 1 
2 2 4 11 2 
2 2) 8 6 2 
2 2) 2 6 2) 
3 3 3 8 3 
3 3 б 2 3 
3 3 3 3 3 
4 4 10 6 4 
4 4 7 1 4 
4 2 6 7 2 
5 5 5 1 5 
5 5 5 10 5 
5 5 7 8 5 
6 6 6 7 6 
б 6 6 11 6 
6 6 6 2 6 
7 2 9 3 2 
7 7 9 2 7 
7 7 7 7 7 
8 8 9 11 8 
8 2 5 2 2 
8 8 8 2 8 
9 2 5 1 2 
9 9 1 10 9 
9 9 1 1 9 
10 2 1 1 2 
10 2 10 7 2 
10 10 5 10 10 
її 11 7 2 11 
її 2 4 6 2 
її 11 1 3 11 

Висновки 


При визначенні авторства текстів 
контрольної вибірки при першому прове- 
денні експерименту безпомилково визна- 
чилися лише автори 2 текстів. Кращий ре- 
зультат визначення авторства дав метод з 
використанням частоти букв - 12 збігів по 
автору. Решта методів визначили автора 
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всього у 6 випадках та у 7 за даними реку- 
рентного аналізу. 

Відсоток близькості знаходиться у 
широкому діапазоні від 190 до 30906. Окремо 
за методами: за даними про частоту літер - 
2495, для даних щодо кількості літер у сло- 
вах - 8090, для рекурентного аналізу тексту 
- 7896 та за результатами порівняння з ви- 
користанням усіх отриманих даних - 5990. 

Також у 22 випадках аналізу тексту 
автор визначався другим або третім за від- 
станню. Найкращий показник також за да- 
ними щодо частоти літер у тексті, а нас- 
тупний - за показниками рекурентного 
аналізу. 

Найкращі результати були отримані 
при визначенні авторства творів за допо- 
могою 4-грамів та по словах - 85 0 та 
76 90 відповідно за загальним вектором. 

Покращення результатів слід очіку- 
вати при розширені методів класифікації 
за обраними показниками, враховуючи 
словосполучення та частини слів. Не до- 
сліджено можливості попередньої обробки 
часових рядів та кодування отриманих 
даних. 
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У.І. 5рупКагепко, І.М. Рретідоуїсі 

Оеїегтіпабоп ої Ше акігібиіе5 ої 
ашіогяНір ої паїига! іехі5 

Тре гез5еагср Па5 Бееп допе іп Ше Пед 
ої іпіеПесіша! ргосезвіпеє ої паїшга! Іаприаєе 
ехі5 апа Феїг Їітастепіз. 

Тре ригрове ої Ші8 могкК 15 (о дейпе Фе 
ейеспуепез5 ої 5(ай5йса! апа гесштепі апа- 
Іуз15 птеШодз, апа (ехі сотріехіу іпдїсаког5 
го деїегтіпе Ше ашфФрогяр ої (ехіз апа Феїг 
їгаєтепіз, а5 ме! а5 (о геуеа! Ше ріаєіагіз т 
зи5рісіопея. 

Тре рагатег(ег5я Їог 50Іміпє Шезе ргоб- 
Іст5 ууеге йедиепсу ої зупібої5 іп (ехі5, 
іпдїсаюг5 ої гесиггепі апаЇїузі5 апа (ехі 
сотріехцу. 
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Тре тео ої гесштепі апаЇубіє ої 
йте 5егіе5 Па5 Бееп адаріеад Їог паца! Іап- 
вмаєе апаї!узіз. 

ВБошг єгопр5 угеге Їогтеай іо декегтіпе 
Фе еййсіепсу ої еасп рагатегег. Тре Пг5і 
єгоир Ба58 зупбоїз їгедиепсу ага, бе зесопа 
- муогдз Іспеїб ака, Фе Шіга - гесштепі 
апаЇу515 ака апа Ше Їошії єгойпр На5є 
абегератеа Чага Гог ай! Фгее ргеміоц5 ягопр58. 

Тре шаїпіпя апа сопіго| затріе5 раме 
рееп Їогпед от 11 ЮКгаїпіап  Псйоп 
ашфФрог5. ТБі5 (уре ої Піегакиге ууа5 сробеп 
ресац5е ої 15 5(гоПЕЇу плагКед іпфуідцайсу 
апа гепабіе іпіогтайоп абойі її5 аціпогяНір. 
Бог еасп ої Ше аціфог5 Ше 5(апдага Баз Бееп 
саїсиіакд - Ше амегаєбе уаїше5 Їог ай ої 
ргеміоц5 рагатеїегя. 

Тре гесеїуеа ітаєе5 ої (ехі5 Їгот сопі- 
го! затріє у/еге сіаззінед Бу Ше тефой ої 
пипітито ді8іапсе іо Фе 5(апдага Гог аП рге- 
уіоц5 рагатегег5 іп бе Еисідїап взрасе ої 
іта?ез. 

Техі5 ууеге ргосез5ед Бу Ше ГоПоміпє, 
ууауз: сПагасіег Бу сПагасі»ег, 2-...7-єгатя апа 
ууогаз млі 15 5иїНХ. 

Ії ууа5 езіабізред (Паї сегіаїп 5і9п5 
ууегеп'ї ебйїсіепі епоцеП іп ай(пог5рір декег- 
пипілє. Опіу іп 8590 ої са5ез аї Іеа5( опе ої 
Фе тешодзя аПоуу8 (о езіабі5В Ше ашіфог. 

Тре тодіпед птефод ої гесштепі апа- 
Гузі5 раз Ше зате Ісусі ої ейсіепсу аз 5(ай15- 
асаї апа сотріехіїу апаЇуге5є и5іпе Ше (ехі 
зутої5 йедиепсу, апа 5ПерЧу Іомег и5іпе 
М-огатя апа ууогаз апаїуге5. 

Тре изіп9, 4-огатз5 Баме Бееп Ше то5і 
ейеспуе птефод іп айПпог5пір декегпитпайоп. 

Шаргоуетепі ої гезціїв 5роцід Бе ех- 
ресіед утіб ехрапасеа сіазвійсайоп птефодз 
разед оп зеЇесіед рагатеїег5, іпсіцдїпе 
ууогі5 согабіпацопя апа рагіз ої могаз. ТРБе 
розвібйШцез ої адуапсед ргосез5іпя ої йте 
5егіе5 апа содіпе ої Ше гесеїуса ага аге пої 
іпуевратед. 
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